Présentation de l'équipe
ICAR3 résulte de la fusion de plusieurs équipes ; ses membres sont donc répartis en plusieurs axes :

A. TEXTOMETRIE ET TYPOLOGIE TEXTUELLE
Chercheurs
Charles Bernet, Serge Heiden, Pierre Lafon.

Champs de recherche
• Développement des méthodes d’observation automatique de corpus textuels, descriptions et analyses
• Élaboration de modèles symboliques et quantitatifs
• Réflexion théorique sur le statut des corpus en linguistique
• Modalités de formatage et d’annotation de corpus textuels
• Lexicographie du français

Projet phare
Développement de la méthodologie textométrique et implémentation dans le logiciel Weblex, traitements empiriques sur trois fonds textuels :
• Base de français médiéval (BFM) du IXe au XVIe siècle (Christiane Marchello-Nizia)
• Base de théâtre des XVIIe et XVIIIe siècles (Charles Bernet)
• Textothèque socio-politique 1770-2005 (Pierre Lafon).

Mots-clés
linguistique de corpus, textométrie, traitement quantitatif, typologie, analyse de discours


B. DIACHRONIE DU FRANÇAIS
sous l’angle morphologique, syntaxique, sémantique et pragmatique d’après les données des corpus

Chercheurs :
Christiane Marchello-Nizia,
Alexei Lavrentiev, 
Céline Guillot, 
Serge Heiden, 
Mélanie Morinière (doctorante).

Chercheurs accueillis : 
Josane Oliveira Moreira (Université de Rio de Janeiro) ; 
Jan Lindschouw (Université de Copenhague).

Thèmes
• Évolution sémantique et morphologique du système des démonstratifs français
• Évolution de l’ordre des mots du latin au français moderne
• Théories du changement linguistique (grammaticalisation, typologie diachronique)
• Tendances de la ponctuation et de la structuration graphique dans les manuscrits et incunables français du XIIIe au XVe siècle
• Évolution sémantique des marqueurs de comparaison
• Typologie externe et interne des textes du français médiéval
• Codage et normalisation de l’annotation linguistique de textes médiévaux

Projet phare
Enrichissement et réorganisation de la Base de français médiéval (BFM) :
La BFM (base de textes français du IXe au XVIe siècle, 2 700 000 mots), développée sous la direction de Ch. Marchello-Nizia depuis 1989 et accessible à tout chercheur au moyen du logiciel Weblex, s’enrichit grâce à un étiquetage morphosyntaxique et à une lemmatisation et se transforme en un corpus organisé grâce à la prise en compte de la typologie textuelle (genres et domaines des textes), à la datation plus précise et à l’évaluation de l’authenticité des données des éditions critiques (à l’origine de la Base) face aux manuscrits médiévaux.


C. LANGUES ET LITTERATURES DU MONDE ARABE
Chercheurs
Georges Bohas, Fathi Debili, Francis Guinle, Katia Zakharia.
Chercheurs accueillis : Mihai Dat (Université de Bourgogne) ; Abderrahim Saguer (Université d’Agadir), actuellement lecteur d’arabe à l’ENS.

Ingénieur d’études
Edwige Lambert, secrétaire de rédaction : Dictionnaire des Langues du Monde - Revue Langues et Littératures du Monde Arabe - Revue Mots (2005)

Champs de recherche
• Réorganisation du lexique de l’arabe et des langues sémitiques (théorie des matrices et des étymons) : G. Bohas, M. Dat, A. Saguer
• Édition de textes arabes : G. Bohas, K. Zakharia
• Constitution d’un corpus de référence de la langue arabe post-classique : G. Bohas, K. Zakharia (en collab. avec D. E. Kouloughli)
• Littérature populaire : G. Bohas, F. Guinle, K. Zakharia

Projets phares
• Édition critique du Roman de Baybars, un des principaux romans populaires arabes. État du projet : depuis 2000, un volume (300/350 pages) par an ; le cinquième volume est sous presse et le sixième est en voie d’achèvement. Total des volumes prévus : 20.

• Analyse automatique de l’arabe : Fathi Debili
– étiquetage grammatical. Étude critique des règles généralement mises en œuvre et proposition d'une nouvelle approche fondée sur l'apprentissage de règles de successions de taille variable (et non plus sur la succession de deux ou trois classes grammaticales) ;
– voyellation automatique de l'arabe ;
– annotation interactive de textes : élaboration de corpus voyellés, étiquetés, lemmatisés et segmentés en chaînes nominales et chaînes verbales, entièrement vérifiés à la main. Apprentissage de noyaux syntaxiques. À ce jour, 80 000 mots ont été annotés. Objectif : un corpus de 100 000 mots manuellement annotés ;
– synthèse lexico-syntagmatique des formes agglutinées voyellées de l’arabe ;
– appariement de paires de textes français arabe ;
– appariement manuel français-arabe d'environ 2 500 paires de phrases.
Objectif : 5 000 paires de phrases.

D. SEMANTIQUE FORMELLE
Chercheur :
Jacques Jayez.

Thème général
Représentations formelles pour la signification et l'interprétation

Orientation générale
Étendre les problématiques et les outils de la sémantique formelle pour prendre en compte des phénomènes sémantiques qui ne relèvent pas de la compositionnalité traditionnelle.

Principaux domaines
• Déterminants modaux
• Connecteurs et particules
• Sémantique dynamique du discours (présuppositions, implicatures, actes de langage non assertifs)

Projets phares
• Modèles théoriques des déterminants modaux (avec Lucia Tovena, Paris 7 et Laboratoire de linguistique formelle, UMR 7110)
• Évolution sémantique des déterminants modaux (avec Ch. Bernet, C. Guillot, S. Heiden, A. Lavrentiev, Ch. Marchello-Nizia, M. Morinière, ENS-LSH et ICAR).

